MELLODDY项目基于区块链和联邦学习搭建的技术框架,在多家顶级制药企业之间共享药物数据,进行AI药物发现。
相信很多人在生活中已经感受到了人工智能(AI)的力量。比如扫地机器人、智能家居、汽车车牌号识别、人脸识别、即将到来的无人驾驶等等。
在这背后,数据、算法、算力是AI发展的三驾马车。其中,数据是重中之重。2020年4月,《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》正式公布。该文件中,数据被定义为一种新型的生产要素,与土地、劳动力、资本、技术等传统生产要素并列,史无前例。
图1 数据(图片来自参考资料1)
事实上,早在四十年前,药物发现的前辈们就开始利用生物信息数据、化合物数据,进行计算机辅助药物设计了。在更早的1965年,Edward Feigenbaum开创的世界上第一个专家系统DENDRAL,就是采用AI算法来分析化合物的质谱数据,判断未知化合物的分子结构。在随后的几十年里,制药企业都投入了巨大的精力、资金来收集大量的数据。这些数据的质量和数量,大大超过了今天我们所能见到的公共数据集。数据广泛应用于药物发现和研发各个环节的建模、预测、虚拟分析。不过,与全行业相比,任何一家制药企业、药物研发机构拥有的数据量都比较有限。然而,出于竞争的原因,制药企业通常只采用自己的数据建立模型进行药物开发。很明显,合作面临知识产权问题,并且可能让他们失去竞争优势。在数据集这一核心竞争领域涉及合作的项目比较少见。从AI药物发现的角度来说,数据质量越高,数据量越大,越能准确地进行建模训练和预测。而实际情况是,制药行业的大多数数据实际上无法用于训练,因为它们分散在许多组织机构中,隐藏在防火墙后面。那么,有没有一种新的模式或框架,在这种模式或框架内,制药企业之间可以共享数据呢?它就是本文要介绍的,基于区块链和联邦学习进行药物研发数据共享的、正在进行的MELLODDY。Machine Learning Ledger Orchestration for Drug Discovery (机器学习分类帐编排的药物发现)简称MELLODDY。
强生的子公司Janssen Pharmaceutica NV(杨森制药)是该项目的制药行业负责人。项目汇集了包括10家顶尖制药企业在内的17家合作伙伴,旨在创建一个建模平台,在该平台上可以利用多家制药企业的数据,创建更准确的模型,以确定药物开发最有效的化合物。 基于区块链架构,联邦学习算法能够读取多个不同的、相互之间存在竞争关系的制药企业的数据,并且不暴露数据贡献方的专有技术,保护他们的知识产权。这些制药企业承诺,在项目的安全性和隐私保护得到证明之后,他们将投入前所未有的海量数据。MELLODDY超越了当前机器学习在药物发现实践中的大多数限制,目标是评估跨任务、数据类型和合作伙伴的学习是否可以提高模型的预测能力,评估是否可以在不泄漏敏感信息的情况下,在多个伙伴的数据集上训练模型。
MELLODDY的17家合作伙伴包括:
10家顶尖制药企业,安进、安斯泰来、阿斯利康、拜耳、勃林格殷格翰、葛兰素史克、杨森制药、默克、诺华和施维雅; 2所欧洲大学,比利时鲁汶大学(KU Leuven)和匈牙利布达佩斯技术与经济大学(BME);4家初创公司,Owkin,Iktos,Kubermatic(Loodse更名为Kubermatic),Substra Foundation;
图2 MELLODDY项目成员(图片来自参考资料2)
10家制药企业将从其数据集(临床前研究数据)中提供与药物开发相关的十亿个数据点,以及注释1000万个不同小分子生物效应的数百TB的图像数据。其他7家参与者包括数据科学公司、AI公司和大学合作伙伴,一起协助处理和分析这一庞大的数据集。其中, Owkin提供基于区块链的AI系统,该区块链架构允许整个平台保持完美的透明度,并控制所有合作伙伴的每一笔交易,同时防止专有数据集的泄露。Owkin同时担任项目协调员;Substra Foundation提供私有区块链技术,并监督项目的执行,确保项目的沟通和可持续性;Kubermatic跨不同制药企业的基础架构部署软件组件,在AWS提供的私有云上部署基础设施; BME提供在机器学习应用于药物发现时的隐私保护的专业知识;NVIDIA提供MELLODDY的硬件平台,并重构算法以提高效率。
那么MELLODDY具体是如何工作的呢?
数据位于制药企业自己的基础设施中,中央调度程序允许每个制药企业共享同一个联邦学习模型,制药企业在各自本地进行学习,学习的结果进行统一合并,进而利用所有可用数据来提高模型的预测性能和适用性。 在这个过程中,联邦学习过程发生在每个参与的制药企业的本地,底层的数据贡献将不会被共享,只有模型被共享。这就允许项目覆盖制药企业的数据仓库中更好的、更大范围的数据。 为了提供操作的完全可追溯性,MELLODDY设计了私有区块链,这样可以保证制药企业对自己的私有数据保持控制和可见性。 由于没有中央权限,因此调度员与分类帐之间的任何通信都需要得到所有合作伙伴的批准,然后才能进行。参与该计划的制药企业可以自由使用项目运行的三年期间出现的任何模型预测结果。
联邦学习,数据不出本地。
联邦机器学习(Federated Machine Learning),又名联邦学习、联合学习、联盟学习,是Google AI在2017年推出的一种新的机器学习协作形式,是一种模型训练形式,训练过程分布在很多用户之间。
图3 联邦学习示意图(图片来自参考资料3)
与将所有用户的所有数据收集到一个集中的位置进行训练不同,联邦学习在本地设备上大批量地训练AI模型,然后将这些学习结果传输回一个全局模型,而数据不需要离开任何特定的设备。 区块链(Blockchain)本质上是一个去中心化的分布式账本数据库,数据记录不可篡改、可追溯。机器学习算法在项目的过程中拖曳每个公司的生物和化学数据,对此私有区块链将提供完全的透明度。区块链分类账中包含有所有活动的日志,每个企业可以在每次联邦学习运行之后请求获取该日志,进而验证其数据是否被不当访问或与竞争对手共享。
MELLODDY的项目预算为1840万欧元。17家合作伙伴都承诺提供资金,其余的资金将由欧盟通过“创新药物倡议”(IMI)进行拨款。
图4 MELLODDY项目资金来源(图片来自参考资料4)MELLODDY项目汇集了17个不同类型的合作伙伴,这些合作伙伴有不同的背景,并且带来不同的技术。那么如何让他们以一种共同的方式协同工作?这是一个挑战。
在具体实施中,MELLODDY的第一步就是建立所有人能够理解和共享的协作工具,比如文档存储、协同任务管理、代码库、讨论渠道等等。接下来,项目被组织成7个不同的工作包,这些工作包处理特定的项目目标。另外,MELLODDY还建立了技术的操作流程,保证整个流程有足够的清晰度,并且能应对计划外的新内容。值得提出的是,为了最小化手工操作,项目技术团队定义了项目的第一个指导原则:一切都是代码。
MELLODDY于2019年6月1日开始运行,并将连续运行三年。
第一年里,项目致力于开发隐私保护和联邦机器学习的软件服务,以及证明这种新的机器学习模式可以安全地和大规模地执行。2020年7月28日,MELLODDY跨过了一个关键的里程碑:在第一个保护隐私的联邦学习中启动来自10家制药企业的海量数据集,证明了技术的可行性。 在随后的两年里,项目焦点将转移到安全利用共同的私有数据,最大化所带来的预测收益上。最后,项目将为对这种新型协作学习模式感兴趣的其他组织,提出可行的、持续的服务收费方案。由于项目正在进行中,关于MELLODDY更多的细节并未公布。
1. AI药物发现的数据突破
虽然目前用于AI药物发现的公共数据库的数据已经非常丰富,并且新的数据正在不断产生,但是同全行业全社会拥有的相关数据的数量和质量相比,仍然非常有限。可用数据的范围已成为AI药物发现和研发的瓶颈。如果类似MELLODDY的数据共享模式被证明是能够成功的,那么届时,任何药物研发相关的数据库(如药物实验数据、诊断数据、基因数据、健康数据等)的拥有者之间,不管是双向还是多向,或许都有可能在类似这种架构上,共享数据,合作竞争。各个环节的不同或相同的内容片段被数字化连接、结合在一起,通过AI挖掘,会给药物发现和研发带来更广阔的视角。AI正在与制药行业不断融合。除了技术解决方案以外,数据共享的社会相关机制也需要得到保证。在数字经济时代,数据已经成为关键生产要素,就如同农业经济和工业经济时代中,土地、劳动力和资本是关键生产要素一样。传统的生产要素往往都有共享、交易机制、法律体系,作为数字经济时代的底层支撑,数据也会逐渐形成系统的社会治理、法律体系,以灵活多样的方式参与到社会生产中。数据的共享机制将会逐渐建立完善。一个以数据为生产力的时代正在悄然来临。在药物发现和研发领域也如此。 MELLODDY给我们的启示之一是,未必能共享数据本身,但可以共享数据价值。无论最终项目结果如何,MELLODDY都是药物发现数据共享模式的一种有益的探索。现实世界中的个别事物或现象经过仔细筛选、改造和复制放大,可能就是未来世界中广泛的存在。参考资料
1.https://astrixinc.com/melloddy-consortium-employs-federated-learning-and-blockchain-to-enhance-ai-drug-discovery/2.https://www.substra.ai/en/melloddy-project3.https://www.biopharmatrend.com/post/97-pharma-companies-join-forces-to-train-ai-for-drug-discovery-collectively/4.https://www.imi.europa.eu/projects-results/project-factsheets/melloddy5.https://www.bio-itworld.com/2019/07/02/melloddy-using-federated-learning-to-improve-drug-development.aspx6.https://www.melloddy.eu/blog/idea 7.https://www.melloddy.eu/blog/melloddy-a-co-opetitive-platform-for-machine-learning-across-companies-powered-by-owkin-technology8.https://www.europeanpharmaceuticalreview.com/news/89540/ten-big-pharma-companies-collaborate-on-data-sharing-ai/9.http://nvidia.zhidx.com/content-6-1545-1.html10.https://www.melloddy.eu/blog/organization 11.http://www.he.xinhuanet.com/talking/2019sbh1/index.htm----------- End -----------